قرائت متون فارسی درون تصویر اسناد (OCR فارسی) را جدی بگیریم

احمد ابراهیمی

مقدمه :


تا حدود یک دهه قبل اسناد و مدارک عموما به صورت اسناد چاپی و مکتوب تهیه و نگهداری می شده اند. با فراگیر شدن بهره گیری از رایانه ها و ذخیره سازی دیجیتال، اسناد و متون تهیه شده به صورت دیجیتال آماده سازی، و بعضا نگهداری نیز شده است.


اما قبل از آن دوره، همه کتب و نوشته ها به صورت نوشته بر روی کاغذ و چاپی بوده است. در حقیقت روش دیگری برای نگهداری وجود نداشته است.


نوشته ها را می توان به دو گروه طبقه بندی کرد :


الف) دست نوشته ها


ب) نوشته های تایپی و چاپی


شاید بتوان گفت که از حدود 60 یا 70 سال پیش نوشته های تایپی به نوشته های چاپی اضافه شده اند.


کار چاپ کتاب نیز سابقه درخوری در ایران دارد.


قدمت دست نوشته ها به زمان اختراع خط و کاغذ و مانند آن بر خواهد گشت.


طرح مسئله :


امروز دنیا، دنیای دیجیتال است. متون و نوشته ها به صورت سنتی آن کاربرد دارند اما تبدیل آنها به متون و نوشته های دیجیتال به آنها ارزش غیر قابل وصفی خواهد داد.


فرض کنید می خواهید بر روی یک موضوع علمی، اجتماعی ، سیاسی، تاریخی و ... تحقیق کنید. چگونه می خواهید همه آنچه در باره موضوع مورد تحقیق تا به امروز نوشته شده است را بدست آورید.


البته همه کسانی که با اینترنت آشنائی دارند خواهند گفت جستجو در اینترنت، و پاسخ آنها نیز صحیح است.


اما آیا غنای اطلاعات موجود بر روی اینترنت، بویژه در بحث منابع فارسی آن، آنقدر هست که بتوان اطمینان داشت که همه منابع و نوشته ها گرد آوری شده است؟


بدون شک چنین نیست. هنوز بسیاری از متون و کتب و مستندات فارسی در زمینه های مختلف وجود دارد که تبدیل به متن قابل جستجو و دیجیتال نشده و امکان دسترسی به آنها فراهم نگردیده است.


چه بسیار کتب و نوشته هائی که در کتابخانه ها و دانشگاههای مختلف و بصورت پراکنده در کشور موجود میباشد و نمی توان از دانش انباشته شده در آنها استفاده نمود.


چه بسیار اسناد و اطلاعات ریز و درشتی که به صورت مکتوب وجود دارد اما چون امکان استفاده از ابزار کارآمد رایانه و پرورده نمودن آنها فراهم نشده ، قادر به استناد نمودن به آنها نیستیم.


چرا ما در کشور خود عمدتا مصرف کننده اینترنت هستیم و نتوانسته ایم منابع غنی مختلف ادبی، سیاسی تاریخی و ... خود را در اختیار محققین و کاربران داخلی و حتی خارجی قرار داده و ارائه کننده نیز باشیم.


یک راه حل:


اصولا برای آنکه سند و متنی را بتوان به یک نرم افزار یا سایت اینترنتی وارد نمود باید به نوعی آن را به داده تبدیل و به سیستم تزریق نمود. با انجام این فرایند داده خام فراهم گردیده و از آن به بعد کارهای بسیاری را می توان بر روی آن انجام داد.


برای این منظور اگر یک کتاب را در نظر بگیریم می توان 3 راه حل زیر را بررسی کرد:


الف) کتاب را توسط تایپیست از ابتدا تایپ کنیم.


این راه حل اکنون نیز در حال اجرا است. بسیاری از کتب در زمان تجدید چاپ، با استفاده از سیستمهای جدید رایانه های تایپ و طراحی شده و بنابر این دیجیتال می گردند.


مشکلات اصلی این روش به قرار زیر هستند:


1- تایپ مجدد هزینه بر است. در حقیقت هزینه هائی همچون تایپیست و هزینه غلط گیری دو هزینه ای است که باید برای تایپ مجدد یک متن متقبل شد. این هزینه در مورد یک کتاب به صرفه است ، اما در مورد هر متنی این هزینه به صرفه نیست.


2- مشکل دیگر نیاز به زمان است. در واقع برای باز نویسی یک کتاب لازم است تا تعدادی تایپیست و غلط گیر استخدام شده تا کار را به اتمام برسانند و البته باز هم در زمانیکه کار ارزش داشته و زمان نیز اهمیت داشته باشد، میتوان با افزایش تعداد نفرات به کار سرعت بخشید. اما همیشه افزایش نفرات ممکن یا به صرفه نمی باشد.


در کل تایپ مجدد در خیلی از موارد پاسخگوی نیاز به دیجیتال سازی بوده ولی نمی توان با قاطعیت گفت که بهترین راه حل نیز می باشد.


ب) کتاب را تصویر برداری نمائیم.


این راه حل نیز بعضا استفاده شده است و کتابهای مختلفی را دیده ایم که صفحه به صفحه تصویر برداری و به فرمتهای مختلف ارائه شده است. به این ترتیب کاربر صاحب یک نسخه دیجیتال کتاب می گردد. اما در حقیقت این نوع دیجیتال نمودن کتاب آن چیزی که مورد توجه عموم کارشناسان باشد و کارآئی لازم را به وجود آورد، نیست.


مشکلاتی که در این روش وجود دارد چنین است:


1- باز هم متن نوشته ها قابل جستجو و انجام عملیات نمی باشند. در واقع شکل نگهداری کتاب تغییر پیدا نموده است اما ماهیت آن چندان تغییر نکرده است و همچنان متن درون کتاب برای رایانه همچون راز سر به مهر باقی مانده و رایانه نمی تواند از محتوای کتاب سر در آورد.


2- نکته دیگر آنکه این روش از نگهداری کتاب نیاز به فضای ذخیره سازی زیادی دارد که تامین آنرا مشکل می نماید. بویژه اگر خواسته باشیم آنچه تهیه شده است از کیفیت مطلوبی نیز برخوردار باشد.


ج) متن نوشته را اسکن نموده و تصویر بدست آمده را توسط رایانه قرائت کنیم.


این روش می تواند روش معقول و مطلوبی باشد. در این حالت می توان به متن نوشته شده در تصاویر دسترسی پیدا نمود و چون از رایانه برای خواندن استفاده شده است بالطبع دقت کار می تواند زیاد بوده و هزینه کار نیز کاهش یابد.


تصور کنید که بخواهید همه نسخ روزنامه هائی مانند اطلاعات، کیهان، دانشمند و ... را از روز نخست انتشار تا به امروز به متن دیجیتال تبدیل کنید


یا همه اسناد و مدارک مکتوبی که در یک وزارتخانه ، سازمان یا کتابخانه هست را قرائت نموده به متن رایانه ای تبدیل کنید.


کاربرد این روش بسیار زیاد و ارزشمند می باشد.


مفهوم (Optical Character Reading )OCR فارسی :


"قرائت متون فارسی درون تصویر" معنی تلویحی مخفف فوق می تواند باشد. در واقع هدف آنست که متن نوشته شده در یک تصویر از هر نوعی، توسط سیستم خوانده شده و به رایانه داده شود.


در دنیا ابزار متنوعی برای قرائت متون لاتین توسط رایانه تهیه و الگوریتمهای مختلفی نیز برای آن طراحی شده است. نرم افزارهائی وجود دارند که از یکی یا بعضا از چند روش تلفیقی استفاده نموده تا با بیشترین دقت بتوانند متنی را قرائت نمایند.


در مورد حروف عربی نیز شرکتی هائی وجود دارند که نسخه ای از نرم افزار مربوطه را ارائه نموده است.


در کشور خودمان نیز این سیستم توسط یکی دو شرکت ارائه شده است و می توان از آن در نرم افزارها استفاده نمود.


اما چنین بنظر می رسد که ابزار های مورد نظر که شناخته شده نیز هستند از قابلیت و انعطاف لازم برخوردار نبوده و نتوانسته اند در بازار جایگاه لازم را کسب و نیازهای مشتری را پاسخ دهند.


از سوی دیگر تا آنجا که تحقیق شده است این نرم افزارها اصولا قادر به قرائت متون تایپی و چاپی می باشند.


با این حساب قرائت متون دست نوشته همچنان یک مسئله باقی خواهد ماند.


نتیجه :


بازار بکر و خوبی برای اسکن اسناد و مدارک و قرائت متون آن اسناد وجود دارد.


این بازار نیازمند ابزار کارآمد، انعطاف پذیر و کم هزینه بوده که بتواند نیازهای مشتری را پاسخگو باشد


نیاز ملی ، فرهنگی ، سیاسی و ... کشور اقتضاء می کند تا داشته های خود را ارائه کنیم. ابزار فوق می تواند پاسخگوئی به این نیاز را سرعت بخشد


خواندن دست نوشته ها یکی از موضوعاتی است که جاذبه زیادی برای کار دارد و پیدا نمودن یک راه حل برای آن بدون شک منافع مالی نیز در بر خواهد داشت.


نکته آخر:


شک نکنید که مطرح نمودن این موضوع بدون دلیل نبوده است و شاید در آغاز یک راه تازه باشیم.


لذا برای همه اطلاعات تکمیلی، نظرات اصلاحی و انتقادی شما در باره این نوشته ارزش بسیار زیادی قائل هستیم و پیشاپیش از حسن توجه شما، بعنوان یک گروه نوآور یزدی، قدردانی می کنیم .


امید وافر داریم که این نوشته و نظراتی که شما اعلام خواهید نمود فتح بابی باشد برای اعلام اخبار تازه و جذابی که بتواند پایه گذار موفقیتی جدید در عرصه ملی و حتی کشورهای همسایه باشد.


پس لطف کنید و هر نکته نظری که در این خصوص دارید مطرح فرمائید.


با تقدیم دعا و احترام

یزدفردا



  • نویسنده : یزد فردا
  • منبع خبر : خبرگزاری فردا